首页> 外文OA文献 >Arabic Preprocessing Schemes for Statistical Machine Translation
【2h】

Arabic Preprocessing Schemes for Statistical Machine Translation

机译:统计机器翻译的阿拉伯文预处理方案

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

In this paper, we study the effect of different word-level preprocessing decisions for Arabic on SMT quality. Our results show that given large amounts of training data, splitting off only proclitics performs best. However, for small amounts of training data, it is best to apply English-like tokenization using part-of-speech tags, and sophisticated morphological analysis and disambiguation. Moreover, choosing the appropriate preprocessing produces a significant increase in BLEU score if there is a change in genre between training and test data.
机译:在本文中,我们研究了阿拉伯语的不同字级预处理决策对SMT质量的影响。我们的结果表明,在提供大量训练数据的情况下,仅拆分专项效果最佳。但是,对于少量训练数据,最好使用词性标签以及复杂的形态分析和歧义化方法来应用类似英语的标记化。此外,如果训练和测试数据之间的体裁发生变化,那么选择适当的预处理会显着提高BLEU分数。

著录项

  • 作者

    Habash, N.; Sadat, F.;

  • 作者单位
  • 年度 2006
  • 总页数
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号